Higgs Audio v2:音频生成的新标杆,融合千万小时多语种数据,展现前所未有的表达力

• 训练资源全面,支持单说话人训练,正在开发多说话人版本,兼容 LoRA 微调,16G 显存即可启动
• 自动化多模型标注管道,清洗十亿级音频数据,结合语义与声学特征的统一音频 tokenizer,性能领先业界
• 采用创新 DualFFN 架构,极大提升 LLM 对声学 token 的建模能力,计算开销低,生成效果自然流畅
• 多语言、多说话人对话生成,自动韵律适配,支持零样本语音克隆与背景音乐同步生成,表现超过 GPT-4o-mini-tts
• 在 Seed-TTS、ESD、EmergentTTS 等多个权威评测中名列前茅,情感与疑问类胜率分别达 75.7% 和 55.7%
• 开箱即用的 Docker 镜像与多种环境安装方案,提供丰富示例,支持零样本语音克隆、智能单说话人生成、多说话人对话等多场景
• 适合科研、产品开发及个性化语音合成需求,助力打造更具表现力和自然度的语音交互体验

深入理解语音生成的多维度特征与上下文关联,体现了对声音本质的精准把握,是未来音频 AI 发展的重要里程碑。
#资源参考 #音频 GitHub - JimmyMa99/train-higgs-audio: Text-audio foundation model from Boson AI
yt-dlp-mcp:专为大型语言模型打造的多媒体下载桥接服务器,结合 yt-dlp 实现视频音频内容无缝接入。

• 支持主流平台(YouTube、Facebook、TikTok等)视频与音频下载,分辨率可控,自动保存至本地Downloads文件夹
• 提供多语言字幕下载(SRT格式),支持自动生成字幕,方便 LLM 高效读取与处理
• 可导出纯文本字幕稿,去除时间戳,助力内容分析和文本挖掘
• 完全隐私保护,直连下载无追踪,保障用户数据安全
• 完美兼容 Dive 及其他 MCP 协议 LLM,方便集成与扩展
• 简单安装配置,支持 Windows/macOS/Linux,基于 Node.js 20+ 环境运行

借助 yt-dlp-mcp,LLM 能直接访问丰富多媒体资源,提升内容理解与交互体验,推动智能应用长期发展。
#资源参考 #工具 #视频下载 GitHub - kevinwatt/yt-dlp-mcp: A Model Context Protocol (MCP) server that bridges Video & Audio content with Large Language Models…
#YouTube #建站 #影视

🎞 MediaCMS - 一个「低仿」 YouTube 的在媒体播放程序

🌐 在线演示

MediaCMS 的界面布局基本是 YouTube ,支持多种媒体类型包括视频、音频、图片、PDF等

基于 Django 开发,性能优秀

➡️已收录至「开源影视程序」

📮投稿 📢频道 💬群聊 🔎索引
#开源 #建站 #PaaS

👆 ZaneOps -一个开源的自托管平台即服务 (PaaS)

它是 Heroku、Railway 和 Render 等一键部署平台的免费开源替代品

➡️ 已收录至「一键部署方案

📮投稿 📢频道 💬群聊 🔎索引
MoveCertificate - Android 移动系统证书

https://github.com/ys1231/MoveCertificate

一个 Android 平台上的 Magisk / KernelSU / APatch 模块,用于将用户证书移动到系统证书目录。

证书直接传到手机,使用系统设置正常安装证书,完了重启即可,不需要格式转换。

可搭配 appproxy vpn 代理工具。

支持将用户证书移动到系统证书目录
兼容 Android 7–15 版本
兼容 Magisk v20.4+、KernelSU 和 APatch

#Android #Network #GitHub GitHub - ys1231/MoveCertificate: 支持Android7-16移动证书,兼容magiskv20.4+/kernelsu/APatch, Support Android7-16, compatible with magisk…
Pocket ID - 自托管 OIDC 服务,使用 Passkey 进行身份验证

https://github.com/pocket-id/pocket-id

这个用在自建服务上代替登录认证挺好使的

Pocket ID 是一个简单易用的 OIDC 提供商服务,允许用户使用他们的生物识别密钥(Passkey)来进行身份验证。

一个简单易用的自托管 OIDC 解决方案,相比其他复杂的选择如 Keycloak 或 ORY Hydra 更加适合简单的使用场景。

支持使用生物识别密钥(passkey)进行身份验证
简单易用的自托管 OIDC 身份提供者
提供 Docker 部署方式

#Tool #HomeLab #Golang #GitHub GitHub - pocket-id/pocket-id: A simple and easy-to-use OIDC provider that allows users to authenticate with their passkeys to your…
Outerbase Studio - 轻量级的浏览器数据库 GUI

https://github.com/outerbase/studio

Outerbase Studio 是一个轻量级、基于浏览器的 SQL 数据库管理工具,支持多种数据库类型,包括 SQLite、LibSQL、Cloudflare D1、rqlite、StarbaseDB、Val.town、MySQL 和 PostgreSQL。

查询编辑器:支持自动补全和函数提示,可同时执行多个查询并查看结果。
数据编辑器:提供强大的数据编辑功能,可预览更改并提交。
模式编辑器:支持快速创建、修改和删除表列。
连接管理器:支持在浏览器中本地存储连接,也可以在服务器上共享连接。

#DB #Tool #GitHub GitHub - outerbase/studio: A lightweight Database GUI in your browser. It supports connecting to Postgres, MySQL, and SQLite.
#计算器

极巧立算

多功能计算器,除了基础计算和科学计算外,还支持亲戚计算、摩斯电吗、大写金额转换、BMI、宏亮营养素、汇率换算、房贷计算、利息计算、随机数生成、质素检验、进制转换、CIDR、Hash计算、Whois查询、正则表达式大全等,所有功能免费使用,无需注册。

https://www.jessenbox.com

频道 @WidgetChannel
#markdown #格式转换

MarkdownDown

网页一键变 Markdown 工具,可将任意网页内容一键清理为干净的 Markdown 文本,并自动下载图片、打包为 ZIP 文件,还可选用 GPT-3/4 对 Markdown 进行进一步整理(例如摘要、去除链接、重排格式等),同时支持输出干净的 HTML 版本,完全免费,无需注册。

https://markdowndown.vercel.app

频道 @Edgebyte
Drive & Listen

虚拟城市漫游体验,涵盖全球 247 国家 873 城市实景录像,雨天、夜晚、自然步道、滑雪路线、航拍等景象,拍摄视角驾车、散步、骑行、火车、人机等,都可以自由选择切换,还配备当地电台与音乐,使人仿佛置身异地驾车旅行之中,感兴趣可以看看,完全免费,需注册。

🧘 网址: 资源链接

💞 感谢 [ 来自 供稿 ]
💭 中文 | 💭 聊天 | 💭 投稿
MyRingtone

铃声下载站,共计超 150 万,搜下确实挺全,冷门歌、老歌、新歌都,下载格式 MP3,完全免费,需注册。

🧘 网址: 资源链接

💞 感谢 [ 来自 供稿 ]
💭 中文 | 💭 聊天 | 💭 投稿
PrivateAccess

闪迪出品 U 盘件加密保护工具,可敏感数据创建密码,以防止他人访问受保护数据,支持备份恢复加密数据,适用于 SanDisk Phone Drive、iXpand USB、USB Flash、 Wireless Charger Sync、Extreme Portable、Extreme PRO Portable 等产品,完全免费,提供 Windows 与 macOS 版本。

闪迪官网 还更多产品,都免费,挺好。

🧘 网址: 资源链接

💞 感谢 [ 来自 供稿 ]
💭 中文 | 💭 聊天 | 💭 投稿
👉 名称:font.icu
🤖 类型:🕸网站
👏 介绍:Free Font 商用免费字体
👉 名称:Prompt engineering overview
🤖 类型:👀资料
👏 介绍:详细介绍了如何通过提示工程来最大化 Claude 4 模型的效能:
👉 名称:The Prompt Report: A Systematic Survey of Prompt Engineering Techniques
🤖 类型:👀资料
👏 介绍:这篇论文提供了关于生成人工智能系统中提示工程技术的全面调查报告,旨在建立对提示工程的结构化理解,提供了 33 个术语的详细词汇表、58 种大型语言模型提示技术的分类法以及其他模态的 40 种技术,并给出了提示工程的最佳实践和指导方针。
👉 名称:BotBrowser
🤖 类型:🤖软件
👏 介绍:BotBrowser 是一款跨平台的隐身浏览器,旨在规避现代的反机器人系统,通过修改 ChromiumC++ 源代码,提供了无痕浏览和自动化的高度可靠解决方案。
👉 名称:hyprnote
🤖 类型:🤖软件
👏 介绍:Hyprnote 是一个专为连续会议的参与者设计的本地优先 AI 笔记软件。它能够在你记录会议时,同时聆听会议内容并制作智能摘要。Hyprnote 支持完全离线运行,使用开源模型如 WhisperHyprLLM。软件不需要互联网连接,所有数据都保存在用户的设备上,确保数据不会外泄。
👉 名称:AI-Media2Doc
🤖 类型:🤖软件
👏 介绍:AI 视频图文创作助手是一款 Web 工具, 基于 AI 大模型, 一键将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。- 完全开源:MIT 协议授权,支持本地部署。
- 🔒 隐私保护:无需登录注册,任务记录保存在本地
- 💻 前端处理:采用 ffmpeg wasm 技术,无需本地安装 ffmpeg
- 🎯 多种风格支持:支持小红书/公众号/知识笔记/思维导图/内容总结等多种文档风格支持。
- 🤖 AI 对话:支持针对视频内容进行 AI 二次问答。
- 🎬 支持字幕导出: 结果一键导出为字幕文件。
- 🖼️ 智能截图: 基于字幕信息智能截图并插入文章, 无需视觉大模型, 实现真正的图文并茂。
- 🎨 支持自定义 Prompt:支持在前端自定义配置 prompt。
- 🐳 一键部署:支持 Docker 一键部署。
- 🔒 支持设置访问密码: 后端设置访问密码之后, 前端用户需要填写该密码才可以正常使用。
👉 名称:dart_simple_live
🤖 类型:🤖软件
👏 介绍:简简单单的看直播,虎牙直播、斗鱼直播、哔哩哔哩直播、抖音直播:
👉 名称:dujiaoka
🤖 类型:🎯项目
👏 介绍:🦄独角数卡(自动售货系统)-开源站长自动化售货解决方案、高效、稳定、快速!对于想快速搭建自己的产品商店的个人和小公司非常友好,能快速打通最小 MVp。也有开发者开源了 Docker 版本方便部署:dujiaoka-docker
Back to Top